计算机与互联网

视觉问答：理论与实践 [V...

书籍语言：简体中文
下载次数：2926
书籍类型：Epub+Txt+pdf+mobi
创建日期：2024-10-04 12:10:02
发布日期：2025-09-14
连载状态：全集
书籍作者：吴琦
运行环境：pc/安卓/iPhone/iPad/Kindle/平板
下载地址

内容简介

视觉问答任务要求机器根据指定的视觉图像内容, 对单轮或多轮的自然语言问题进行作答。其本质上是一个多学科的研究问题，涉及计算机视觉、自然语言处理、知识表示与推理等。本书共5 部分，第1 部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术，包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2 部分将图像视觉问答进一步分为五类，即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外，概述基于图像的其他视觉问答任务，例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3 部分讨论基于视频的视觉问答及其相关模型。第4 部分讨论与视觉问答相关的高级任务，包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解，它们是视觉问答任务的扩展。第5 部分对该领域进行总结和展望，讨论视觉问答领域的未来研究方向。

《视觉问答：理论与实践》既可以作为视觉问答领域关键模型的综述，也可作为计算机视觉和自然语言处理领域的研究人员，尤其是专注于视觉问答的研究人员和学生的教材。

作者简介

吴琦

阿德莱德大学副教授，澳大利亚机器学习研究中心视觉和语言实验室主任，2019-2021年获得ARC Discovery DECRA Fellowship。2019年被澳大利亚科学院授予罗素奖。2015年获得英国巴斯大学计算机科学博士学位，2011年获得硕士学位。他的研究兴趣主要是计算机视觉、自然语言处理和机器学习。目前，他正在研究视觉语言问题，主要是图像描述、视觉问答 (VQA) 以及视觉语言导航方面。在TPAMI、CVPR、ICCV、ECCV等著名会议和期刊上发表论文100余篇。他还是CVPR、ICCV和NeurIPS会议的领域主席。

王鹏

西北工业大学教授、博士生导师，教育部长江学者。2000-2011年在北京航空航天大学自动化科学与电气工程学院学习并获得学士和博士学位。博士毕业后在阿德莱德大学计算机学院从事科研工作，主要从事计算机视觉、自然语言处理和机器学习相关领域的研究。

王鑫

清华大学计算机系副研究员，国家优秀青年科学基金获得者。在浙江大学计算机科学与技术学院获得学士、博士学位，在加拿大西蒙弗雷泽大学获得计算科学博士学位。作为项目或课题负责人承担国家自然科学基金、科技部重点研发计划等项目，获ACM中国新星奖、IEEE TCMC新星奖、达摩院青橙奖、国家自然科学二等奖和教育部自然科学一等奖。主要研究方向为多媒体智能、媒体大数据和机器学习等，在IEEE TPAMI、ICML、NeurIPS、ACM Multimedia等相关领域国际期刊或会议上发表论文180余篇，三次获ACM Multimedia Asia等论文奖。

何晓冬IEEE/CAAI Fellow，京东集团副总裁、京东探索研究院院长、京东科技人工智能业务负责人，从事自然语言处理和语言与视觉多模态智能的研究二十余年，是该领域的世界级科学家，吴文俊人工智能杰出贡献奖获得者。他发表了200余篇论文，被引用5万余次，其代表作如HAN、BUTD等多篇论文均获5000次以上的引用，并多次获得ACL杰出论文奖、IEEE SPS论文奖等奖项。在京东，他领导团队聚焦人工智能技术的前沿突破及产品创新，打造了京东“言犀”AI平台及言犀大模型，在电商行业推出了言犀数字人多模态视频生成和AI直播等颠覆性创新应用，并在零售、金融、文旅、健康等产业进行了大规模技术赋能。他还在华盛顿大学(西雅图)等学校担任兼职教授。

朱文武

清华大学计算机系教授，博士生导师，现任清华大学北京信息科学与技术国家研究中心副主任，清华大学人工智能研究院大数据智能中心主任，大数据算法工程实验室副主任。国家973项目首席科学家，国家基金委重大项目负责人。主要从事多媒体智能、多媒体大数据等研究工作，曾10次获ACM及IEEE等国际论文奖，发表高水平国际论文400余篇，发明专利80余项。现担任IEEE Transactions on Circuits and Systems for Video Technology主编，曾任IEEE Transactions on Multimedia指导委员会主席、主编，IEEE Transactions on Mobile Computing、IEEE Transactions on Multimedia指导委员会成员，ACM Multimedia 2018和ACM CIKM 2019大会共同主席。欧洲科学院院士、ACM/IEEE/AAAS/SPIEFellow。荣获2012、2018、2023年度国家自然科学二等奖（排名第二、第一、第一），五次获省部级一等奖。

编辑推荐

适读人群：本书既可以作为视觉问答领域关键模型的综述，也可作为计算机视觉和自然语言处理领域的研究人员，尤其是专注于视觉问答的研究人员和学生的教材。

华为云人工智能领域首席科学家、国际欧亚科学院院士、IEEE Fellow田奇，加拿大工程院外籍院士、智象未来创始人兼CEO梅涛倾情作序！

涵盖视觉问答领域的基础理论、模型、数据集及未来方向。

系统介绍计算机视觉和自然语言处理的概念和方法。

通过多样化的应用程序和任务探索使用不同的模型解决现实世界的视觉问答问题。

囊括视觉问答的高级任务，包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解等。

下载地址

Txt格式下载
兼容性最好的txt格式，支持所有设备
Epub格式下载
iPhone/iPad/安卓/Kindle/平板首选epub格式,支持分章书签笔记
pdf格式下载
高清pdf扫描版，适合pc阅读
mobi格式下载
mobi格式下载
百度云网盘下载
百度云网盘下载
新浪微盘下载
新浪微盘下载
推送到Kindle上
推送到Kindle上
在线阅读
在线阅读

序言

视觉问答（Visual Question Answering，VQA）是结合了计算机视觉（Computer Vision，CV）和自然语言处理（Natural Language Processing，NLP）的一项基本任务。视觉问答受到计算机视觉、自然语言处理和其他各种人工智能社区的广泛关注，作为计算机视觉和自然语言处理的桥梁，其任务目标是根据图像的视觉信息推理问题的正确答案。在最常见的视觉问答形式中，计算机接收图像和关于图像的文本问题，随后需确定正确答案，并以几个单词或短语的形式呈现。视觉问答还具备多种变体，包括二进制（是或否）、多项选择题设置和开放式问答等。

视觉问答与计算机视觉中其他任务的一个关键区别是，其要回答的问题直到运行时才能确定。在传统的分割或目标检测等任务中，一个算法要回答的问题是预先确定的，只有输入图像是变化的。相比之下，在视觉问答任务中，问题的形式和回答它所需的操作集是未知的。这项任务与图像理解的挑战相关联。特别是视觉问答与语篇问答任务相关，其中答案必须在特定的语篇叙事（阅读理解）或大型知识库（信息检索）中寻求。文本问答已经被自然语言处理界研究了很长时间，视觉问答代表了它对额外的视觉支持信息的扩展。值得注意的是，这种扩展伴随着一个重大的挑战，因为图像比纯文本具有更多的维度和更多的噪声。此外，图像缺乏语言的结构和语法规则，没有直接等价于句法解析器和正则表达式的自然语言处理工具。此外，图像更多地捕捉了现实世界的丰富性，而自然语言代表了更高层次的抽象。例如，“一顶红帽子”短语和它可以被描绘出来的众多表示形式，在这些表征中，许多风格是短句无法描述的。随着计算机视觉和自然语言处理技术的成熟，以及相关大规模数据集的出现，人们对视觉问答越来越感兴趣。因此，近五年出现了大量关于视觉问答的文献和开创性模型。本书的写作目的是提供一个对新兴领域的全面概述，涵盖基础理论、模型、数据集及未来方向。

本书既可以作为视觉问答领域关键模型的综述，也可以作为计算机视觉和自然语言处理领域的研究人员，尤其是专注于视觉问答的研究人员和学生的教材。希望读者通过阅读本书获得关于计算机视觉和自然语言处理领域中不同流行理论和模型的认知。此外，本书可以帮助学生（尤其是研究生）系统地理解计算机视觉和自然语言处理的概念和方法。通过一组多样化的应用程序和任务，探索使用不同的模型解决现实世界的视觉问答问题。读者只需要掌握基本的机器学习和深度学习知识即可理解这些主题。

本书共5 部分。第1 部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术，包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2 部分将图像视觉问答进一步分为五类，即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外，概述基于图像的其他视觉问答任务，例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3 部分讨论基于视频的视觉问答及其相关模型。第4 部分讨论与视觉问答相关的高级任务，包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解，它们是视觉问答任务的扩展。第5 部分对该领域进行总结和展望，讨论视觉问答领域的未来研究方向。

吴琦

澳大利亚阿德莱德大学

查看全部↓

猜你喜欢

下载排行